set.seed(1234)
<- rt(1000, 5)
my_data shapiro.test(my_data)
Shapiro-Wilk normality test
data: my_data
W = 0.98561, p-value = 2.358e-08
Yeong Chan Lee
April 7, 2023
데이터의 정규성을 검정하는 normality를 수행해보겠습니다.
먼저 Shapiro-wilk test입니다.
\[ \text{H}_0 : \text{The data are from a normally distributed population} \\ \quad \text{H}_1 : \text{The data are not from a normally distributed population} \]
p-value가 0.05를 넘으면 귀무가설을 기각하지 않고 데이터가 정규분포를 따른다고 판단합니다.
Shapiro-Wilk normality test
data: my_data
W = 0.98561, p-value = 2.358e-08
다양한 분포로부터 random하게 값을 추출해서 실험해보세요. shapiro.test()함수는 최대 5000개의 데이터만 허용합니다. 그 이상의 데이터를 검정하기 위해선 Kolmogorov-Smirnov test를 활용합니다. my_data가 표준정규분포를 따르는지 검정합니다.
\[ \text{H}_0 : \text{The two samples are drawn from the same distribution} \\ \quad \text{H}_1 : \text{The two samples are drawn from the same distribution} \]
Asymptotic one-sample Kolmogorov-Smirnov test
data: my_data
D = 0.032448, p-value = 0.2431
alternative hypothesis: two-sided
다음은 my_data가 자유도 5를 가지는 t분포를 따르는지 검정합니다.
Asymptotic one-sample Kolmogorov-Smirnov test
data: my_data
D = 0.024046, p-value = 0.6097
alternative hypothesis: two-sided
이번엔 새로운 표본을 뽑아서 my_data가 따르는 분포와 동일한지 검정해봅니다.
모수적 방법과 비모수적 방법을 비교하기 위해 분포에서 랜덤값을 추출하고 t.test()와 wilcox.test() 함수를 통해 비교해보겠습니다.
Welch Two Sample t-test
data: x1 and x2
t = -3.0591, df = 12.801, p-value = 0.009281
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.5251332 -0.4328603
sample estimates:
mean of x mean of y
-0.4422628 1.0367340
Wilcoxon rank sum exact test
data: x1 and x2
W = 16, p-value = 0.0124
alternative hypothesis: true location shift is not equal to 0
이젠 실제 데이터에 적용해보면서 동일한 가설에 대한 모수적 방법과 비모수적 방법에 대해 비교해보겠습니다.
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
participant_id sex age baseline treatment number3m number12m
1 001 female 17 7 sulindac 6 NA
2 002 female 20 77 placebo 67 63
3 003 male 16 7 sulindac 4 2
4 004 female 18 5 placebo 5 28
5 005 male 22 23 sulindac 16 17
6 006 female 13 35 placebo 31 61
7 007 female 23 11 sulindac 6 1
8 008 male 34 12 placebo 20 7
9 009 male 50 7 placebo 7 15
10 010 male 19 318 placebo 347 44
11 011 male 17 160 sulindac 142 25
12 012 female 23 8 sulindac 1 3
13 013 male 22 20 placebo 16 28
14 014 male 30 11 placebo 20 10
15 015 male 27 24 placebo 26 40
16 016 male 23 34 sulindac 27 33
17 017 female 22 54 placebo 45 46
18 018 male 13 16 sulindac 10 NA
19 019 male 34 30 placebo 30 50
20 020 female 23 10 sulindac 6 3
21 021 female 22 20 sulindac 5 1
22 022 male 42 12 sulindac 8 4
placebo그룹과 sulindac그룹의 baseline때의 용종의 개수의 차이가 있습니까?
t.test(filter(polyps, treatment=="placebo")$baseline,
filter(polyps, treatment=="sulindac")$baseline)
Welch Two Sample t-test
data: filter(polyps, treatment == "placebo")$baseline and filter(polyps, treatment == "sulindac")$baseline
t = 0.85384, df = 14.6, p-value = 0.407
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-38.92272 90.74090
sample estimates:
mean of x mean of y
53.90909 28.00000
Wilcoxon rank sum test를 해봅시다.
wilcox.test(filter(polyps, treatment=="placebo")$baseline,
filter(polyps, treatment=="sulindac")$baseline)
Warning in wilcox.test.default(filter(polyps, treatment == "placebo")$baseline,
: cannot compute exact p-value with ties
Wilcoxon rank sum test with continuity correction
data: filter(polyps, treatment == "placebo")$baseline and filter(polyps, treatment == "sulindac")$baseline
W = 77.5, p-value = 0.2776
alternative hypothesis: true location shift is not equal to 0
Percent change 비교를 통해 sulindac의 사용이 용종의 개수를 줄여주는데 효과가 있는지 검정해봅시다.
polyps$PERCENT_CHANGE <- (polyps$number3m - polyps$baseline)/polyps$baseline
mean(filter(polyps, treatment == "placebo")$PERCENT_CHANGE)
[1] 0.09532312
[1] -0.398367
t.test(filter(polyps, treatment == "placebo")$PERCENT_CHANGE,
filter(polyps, treatment == "sulindac")$PERCENT_CHANGE)
Welch Two Sample t-test
data: filter(polyps, treatment == "placebo")$PERCENT_CHANGE and filter(polyps, treatment == "sulindac")$PERCENT_CHANGE
t = 3.9955, df = 17.906, p-value = 0.000856
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.2339972 0.7533831
sample estimates:
mean of x mean of y
0.09532312 -0.39836705
wilcox.test(filter(polyps, treatment == "placebo")$PERCENT_CHANGE,
filter(polyps, treatment == "sulindac")$PERCENT_CHANGE)
Warning in wilcox.test.default(filter(polyps, treatment ==
"placebo")$PERCENT_CHANGE, : cannot compute exact p-value with ties
Wilcoxon rank sum test with continuity correction
data: filter(polyps, treatment == "placebo")$PERCENT_CHANGE and filter(polyps, treatment == "sulindac")$PERCENT_CHANGE
W = 115, p-value = 0.0003853
alternative hypothesis: true location shift is not equal to 0
두 테스트 모두 sulindac그룹과 placebo 그룹에 통계적으로 유의한 차이가 있는 것으로 나타납니다.
두 그룹간 비교 분석을 한다고 할 때, 두 그룹이 동일 모집단에서 추출된 표본이라고 가정하면 각 그룹의 대표값(예를 들어, 평균)의 통계적 차이는 없을 것입니다. 또한 두 그룹의 데이터를 무작위로 교환한 뒤 검정하더라도 통계적 차이가 없을 것입니다.
즉, 데이터를 무작위로 두 그룹 중 하나로 배정하고 그때의 통계량(예를 들어, 두 그룹의 평균 차이)을 계산하는 것을 n 번 수행하면 분포를 그릴 수 있습니다. 이것을 활용해 실제 데이터로부터 계산한 통계량이 순열 분포로부터 얼마나 극단적인지를 측정합니다. 이를 p-value로 나타낼 수 있고 유의수준보다 작으면 귀무가설을 기각할 수 있습니다.
Permutation test는 통계적 가설 검정에서 비모수적 방법으로 사용되며 원래 데이터의 순서를 임의로 변경하여 귀무가설 하에서 관측된 통계량의 분포를 추정합니다. 이 방법은 데이터의 실제 분포에 대한 가정이 필요하지 않으므로 모수적 방법의 가정이 만족되지 않는 상황에서도 사용할 수 있습니다.
# 예제 데이터 생성
set.seed(42)
group_x <- rnorm(10, mean = 10, sd = 2)
group_y <- rnorm(15, mean = 12, sd = 2)
# 귀무 가설 검정을 위한 순열 검정
perm_test <- function(x, y, n_permutations = 1000) {
combined_data <- c(x, y)
n_x <- length(x)
n_y <- length(y)
N <- n_x + n_y
# 관측된 순위합 계산
ranks <- rank(combined_data)
R1_obs <- sum(ranks[1:n_x])
# 순열 분포 생성
R1_perm <- numeric(n_permutations)
for (i in 1:n_permutations) {
permuted_data <- sample(combined_data, N)
ranks_perm <- rank(permuted_data)
R1_perm[i] <- sum(ranks_perm[1:n_x])
}
# 양측 순열 검정의 p-value 계산
p_value_perm <- 2 * min(
mean(R1_perm <= R1_obs),
mean(R1_perm >= R1_obs),
0.5
)
return(p_value_perm)
}
# 순열 검정 실행
p_value <- perm_test(group_x, group_y, n_permutations = 1000)
print(paste("Permutation test p-value:", p_value))
[1] "Permutation test p-value: 0.334"
Wilcoxon rank sum exact test
data: group_x and group_y
W = 55, p-value = 0.2852
alternative hypothesis: true location shift is not equal to 0
Welch Two Sample t-test
data: group_x and group_y
t = -0.84477, df = 22.389, p-value = 0.4072
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.764741 1.163145
sample estimates:
mean of x mean of y
11.09459 11.89539